词性标注相关论文
采用被动标记特征辅助语义角色自动标注是语义关系标注的一种重要思路,但被动标记处理还面临诸多难题,最突出的就是非典型被动标记难......
围绕标准文本的词性标注,针对通用词性标注集对标准文本标注不适配的问题,基于词性标注任务研究现状,提出一种针对标准文本特点的词性......
近年来,机器翻译技术的快速发展为不同国家人民之间的交流带来了极大的便利。机器翻译指将一种模态的语言表示转化为另一种语言表......
词类范畴化问题一直饱受争议。理论学界虽提出了三种有关词类分类的标准即语法,语义和形态分布原则,但哪一种是解决汉语词类划分的......
老挝位于东南半岛北部,属于东南亚国家,且与中国毗邻,作为“一带一路”倡议沿线国家之一,其发展命运紧密地和中国联系在一起。由于......
学位
依存句法分析是识别句子中词与词之间的语义修饰关系并构建依存句法树的过程。依存句法树能够简洁高效的表达句子的句法结构信息,......
目前流行的词性标注方法严重依赖语料规模及人工提取特征的质量;然而,老挝语资源稀缺,语料及特征选取面临很大挑战,且老挝语句子本......
随着深度学习理论的不断发展和完善,基于深度学习的模型逐渐成了近些年自然语言处理技术的主流研究方法。而表征学习是基于深度学......
《现代汉语词典》从2005年第5版开始,在区分词和非词的基础上标注词性,实践了词意识.《现代汉语词典》在第6版、第7版的修订过程中......
为了解决词性标注技术研究过程中所涉及的词性标注语料及词性标注规则等知识的管理问题,以系统功能、词性标注语料库、词性电子词......
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检......
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数......
限定词典背景下的中文分词有着较广阔的应用需求。根据限定词典词汇固定、词频统计精确、处理时效性要求高等实际情况,增加了词条的......
本文采用概率统计的二元模型与三元模型进行了汉语词性自动标注,在算法为线性阶的时间复杂度的情况下,对二十万训练集和一万的测试......
有学者提出可以用区别词来鉴别动名兼类词的词性,本文主要验证这一方法的可行性。文章首先在现有区别词研究的基础上,依据语料从严......
本文利用条件随机场模型实现了一个金融领域到通用新闻领域的中文命名实体识别系统领域扩展方案,并对如利用分词和词性标注信息进......
熟语是自然语言中存在的普遍现象,所有的语料库在标注阶段都要处理熟语.为了把熟语问题处理好,本文以英汉熟语为例,在英汉熟语对比......
本文介绍了2003年"中文与接口技术"汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题......
在自然语言处理系统的应用过程中,很多系统允许用户自由挂接一部或多部领域词典,本文首先对采用二次分词方法产生的二次分词歧义现......
机器翻译是最具综合性和实用性的自然语言处理工程,机译软件的汉英翻译质量首先取决于汉语分析能力.我们测试了两个流行的商用机译......
近年来,最大熵模型的应用研究在自然语言处理领域中越来越受到人们的关注,本文利用语料库中词性标注的上下文信息建立基于最大熵方......
中英文拼写纠错技术越来越多应用于媒体行业.电子录入不可避免会出现一些错误,人工检测耗时耗力.本文首先从文本纠错常用算法模型......
诸暨话的俗语中,像"毒头毒脑"一类词语(概括为"x头x脑"),数量比较多,在日常生活中使用的频率也较高.本文根据收集的资料,按词......
最大熵模型能够充分利用多个任意的特征。本文中提出基于最大熵模型的维吾尔语词性标注方法。本文中主要的工作是选出对兼类词和未......
习用短语作为第七版《现代汉语词典》中收录的一个特殊群体,共7037个,在词典中与其他词语的区别是未进行词性标注。作为词典收词的重......
目前国内的外向型离合词学习词典仅有四部。通过对四部词典的收词和标注情况进行考察与分析,发现四部词典各有特点,也存在一定问题......
语言模型的效果关系到电力调度语音识别系统的识别准确性.为了提高电力调度语音识别的精度,提出一种基于双字典(通用字典和电力调......
在基于搜索日志的基础上,根据语料本身具有的特点,对“N1+N2”型结构的名词短语进行全面的描述,其中包括各组成要素的特点和句法功......
随着信息技术的快速发展和网络的普及,以网页形式表示的信息越来越多,基于网页的知识元挖掘就是从浩瀚的网页信息中发现潜在的有价......
[目的/意义]针对传统的情感词词典构造方法对新词判断准确率不够理想,领域拓展性较差等问题,提出基于句法依赖规则和词性特征的情......
针对文本聚类算法在应用方面存在的“维灾”、簇的命名以及大规模的问题,运用WordNet词典进行词列表的降维和词干化,提出并实现基于......
对网上中文信息语料库搜集技术的实现原理和关键技术进行了讨论和分析,介绍了基于Web网络的通讯及网上自动获取信息的原理,讨论了中文信......
文章从知识单元的角度,提出了一个基于专利文件知识结构的知识单元挖掘方法,并结合最大字符串匹配算法、停用词去除、词性标注预处......
美国计算语言学学会(AC)第31届年会,1993年6月21—26日在美国哥伦布市俄亥俄州立大学举行,出席本届大会的科技界与企业界人士逾40......
短语作为句子的一个层次,其结构的研究在自然语言理解中,尤其是汉语理解中占有重要的位置。本文介绍的是一种基于统计信息的分析汉语......
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分调系统SegTag中信息集成方法,并讨论了信息集成结构中的两......
【目的】借鉴Lesk词义消歧思想,提出并实现一种利用术语定义来发现汉语同义词的方法。【方法】将新能源汽车领域汉语科技词系统中......
词典编纂工作计算机化可明显提高效率和质量,因而需要借鉴国外的有益经验,并结合国内的实际情况,实现词典编纂的计算机化。 我们旨在......
文章研究了一种基于HDP主题模型的主题文献自动推荐方法,并将其应用于专题情报服务领域知识库构建平台系统的开发。该方法在中文分......
文章提出应用信息检索和信息抽取技术从互联网自动挖掘交通信息资源的方法。首先采用多引擎同时搜索并下载交通信息报道,其次进行......
《现代汉语词典》(修订本)对“现行”的解释为:“①现在施行的;现在有效的:~法令|~制度。②正在进行或不久前曾进行犯罪活动的:~犯......